Vers une Automatisation de la Construction de Variables pour la Classification Supervisée
نویسندگان
چکیده
Résumé. Dans cet article, nous proposons un cadre visant à automatiser la construction de variables pour l’apprentissage supervisé, en particulier dans le cadre multi-tables. La connaissance du domaine est spécifiée d’une part en structurant les données en variables, tables et liens entre tables, d’autre part en choisissant des règles de construction de variables. L’espace de construction de variables ainsi défini est potentiellement infini, ce qui pose des problèmes d’exploration combinatoire et de sur-apprentissage. Nous introduisons une distribution de probabilité a priori sur l’espace des variables constructibles, ainsi qu’un algorithme performant de tirage d’échantillons dans cette distribution. Des expérimentations intensives montrent que l’approche est robuste et performante.
منابع مشابه
Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملUne méthode optimale d'évaluation bivariée pour la classification supervisée
Résumé. En préparation des données pour la classification supervisée, les méthodes filtres usuellement utilisées pour la sélection de variables sont efficaces en temps de calcul. Néanmoins, leur nature univariée ne permet pas de détecter les redondances ou les interactions constructives entre variables. Cet article présente une nouvelle méthode permettant d'évaluer l'importance prédictive joint...
متن کاملفایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملUne nouvelle approche pour la classification non supervisée en segmentation d'image
Résumé. La segmentation des images en régions est un problème crucial pour l’analyse et la compréhension des images. Parmi les approches existantes pour résoudre ce problème, la classification non supervisée est fréquemment employée lors d’une première étape pour réaliser un partitionnement de l’espace des intensités des pixels (qu’il s’agisse de niveaux de gris, de couleurs ou de réponses spec...
متن کاملUn Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables
Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables ...
متن کامل